文本检索科幻影视

FG-CLIP 2: 为细粒度跨模态理解而生的下一代VLM，8大类29项任务双语性能全球第一

在 AI 多模态的发展历程中，OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力，为跨模态学习奠定了基础。如今，来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源，在中英文双语任务上全面超越 MetaCLIP 2

语义冗余：联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近，淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等，检索时易出现“背景相似但语义不对”的假阳性；在视频场景中，也会出现时序冗余。粒度错配：图像/视频天然具有“无限粒度”，而弱标